년 6월 AI 및 로봇 연구 동향
1. 서론: 현대 AI의 서막, 2017년 6월
2017년 6월은 인공지능(AI)의 역사에서 단순한 시간의 한 점으로 기록되지 않는다. 이 시기는 현대 AI, 특히 거대 언어 모델(Large Language Model, LLM) 시대의 서막을 연 결정적인 변곡점이다. 당시 자연어 처리(Natural Language Processing, NLP) 분야를 지배하던 순환 신경망(Recurrent Neural Network, RNN) 패러다임의 황혼기와, 이후 AI 연구의 방향성을 근본적으로 재설정한 트랜스포머(Transformer) 아키처의 여명기가 교차하는 지점이었기 때문이다. Google 소속 연구원들이 기념비적인 논문 “Attention Is All You Need“를 학술 논문 사전 공개 사이트 arXiv에 처음 제출한 것이 바로 2017년 6월 12일이었다.1
그러나 2017년 6월의 중요성은 단지 트랜스포머의 등장에만 국한되지 않는다. 이 시기는 컴퓨터 비전, 모델 해석 가능성, 로보틱스 등 AI의 여러 하위 분야에서 중요한 연구들이 동시다발적으로 발표된 ’지적 폭발’의 시기였다. 컴퓨터 비전 분야의 최고 학회인 CVPR(Conference on Computer Vision and Pattern Recognition), 기계학습 분야의 ICML(International Conference on Machine Learning), 자연어 처리 분야의 ACL(Association for Computational Linguistics), 로보틱스 분야의 RSS(Robotics: Science and Systems), 그리고 자동화 계획 및 스케줄링 분야의 ICAPS(International Conference on Automated Planning and Scheduling)와 같은 최고 수준의 학회들이 이 시기에 집중적으로 개최되어, 전 세계 연구자들 간의 지식 확산과 상호 작용을 촉진하는 촉매 역할을 수행했다.2
본 보고서는 2017년 6월을 전후하여 발표된 핵심 연구들을 심층적으로 분석하고, 이들이 각자의 분야에서 어떤 기술적 돌파구를 마련했으며, 나아가 어떻게 상호작용하며 현재의 AI 기술 지형을 형성했는지 규명하는 것을 목표로 한다. 각 장에서는 주요 논문의 핵심 아이디어, 방법론, 그리고 기술사적 기여도를 상세히 논함으로써, 2017년 6월이 AI 발전에 미친 다층적인 영향을 입체적으로 조망하고자 한다. 당시 학계가 가장 중요하게 평가했던 연구 주제와 방향성을 거시적으로 파악하기 위해, 주요 학회들의 최우수 논문상 수상작을 아래 표로 정리하였다.
| 학회 (Conference) | 최우수 논문상 수상작 (Best Paper Award Winner(s)) |
|---|---|
| CVPR 2017 | “Densely Connected Convolutional Networks” 3 |
| “Learning from Simulated and Unsupervised Images through Adversarial Training” 7 | |
| ICML 2017 | “Understanding Black-box Predictions via Influence Functions” 4 |
| ACL 2017 | “Probabilistic Typology: Deep Generative Models of Vowel Inventories” 6 |
| RSS 2017 | “Asymptotically Optimal Design of Piecewise Cylindrical Robots using Motion Planning” 5 |
이 표는 2017년 당시 AI 연구의 핵심 화두가 무엇이었는지를 명확히 보여준다. 단순히 모델의 성능을 극한으로 끌어올리는 경쟁을 넘어, AI 연구의 패러다임이 보다 근본적이고 실용적인 문제들로 확장되고 있었음을 알 수 있다. 첫째, CVPR에서 수상한 ’DenseNet’은 더 적은 파라미터로 최첨단(State-of-the-Art, SOTA) 성능을 달성하는 ’파라미터 효율성’을 핵심 가치로 내세웠다.3 이는 단순히 네트워크를 더 깊게 쌓아 성능을 높이던 이전의 경향에 대한 반성이자, 제한된 계산 자원 내에서 AI의 효용을 극대화하려는 새로운 방향성을 제시한 것이다. 둘째, ICML의 최우수 논문은 ’블랙박스 예측의 이해’라는 주제를 통해 모델의 ‘해석 가능성’ 문제를 정면으로 다루었다.4 이는 모델의 예측 정확도만큼이나 그 예측의 근거를 이해하는 것이 AI 시스템의 신뢰성과 안전성에 필수적이라는 인식이 학계의 중심으로 부상했음을 시사한다. 셋째, CVPR의 또 다른 수상작인 ’SimGAN’은 레이블링된 실제 데이터 없이 시뮬레이션 데이터만으로 모델을 학습시키는 ’데이터 독립성’을 추구했다.7 이는 막대한 비용이 소요되는 데이터 수집 및 레이블링 문제에 대한 근본적인 해결책을 모색하려는 시도였다. 이 세 가지 핵심 연구는 모두 ’성능’이라는 단일 지표를 넘어, 실제 세계에 AI를 적용할 때 부딪히는 현실적인 제약, 즉 계산 비용, 신뢰성, 데이터 비용을 해결하려는 공통된 목표를 공유한다. 따라서 2017년 6월은 AI 연구가 성숙기로 접어들며 문제 정의 자체가 더욱 복잡하고 실용적으로 변모했음을 보여주는 상징적인 시기라 할 수 있다.
2. 자연어 처리의 패러다임 전환: 트랜스포머의 등장
2.1 순환 신경망의 한계와 어텐션 메커니즘의 부상
2017년 이전까지 자연어 처리(NLP) 분야는 장단기 메모리(Long Short-Term Memory, LSTM)와 같은 순환 신경망(RNN) 아키텍처가 확고한 지배력을 행사하고 있었다.14 RNN은 단어를 순차적으로 처리하며 이전 타임스텝의 정보를 은닉 상태(hidden state)에 압축하여 다음 타임스텝으로 전달하는 방식으로 문맥을 학습했다. 이러한 구조는 언어의 순차적 특성을 모델링하는 데 매우 효과적이었으나, 동시에 본질적인 한계를 내포하고 있었다.
가장 큰 한계는 순차 처리의 병목 현상이었다. RNN의 구조상, 특정 타임스텝(t)의 계산은 이전 타임스텝(t-1)의 계산이 완료되어야만 시작될 수 있었다. 이러한 의존성은 GPU와 같은 병렬 컴퓨팅 하드웨어의 장점을 온전히 활용하는 것을 근본적으로 불가능하게 만들었다. 결과적으로 대규모 데이터셋을 사용한 모델 학습에 엄청난 시간이 소요되는 제약으로 작용했다.14 또 다른 고질적인 문제는 **장기 의존성 문제(long-range dependency problem)**였다. 이론적으로 RNN은 시퀀스 시작 부분의 정보를 마지막까지 전달할 수 있어야 하지만, 실제로는 역전파 과정에서 기울기가 점차 사라지는 기울기 소실(vanishing gradient) 문제로 인해 문장의 앞부분에 위치한 중요한 정보가 뒤로 갈수록 희석되는 현상이 빈번하게 발생했다.14
이러한 한계를 극복하기 위한 대안으로 Bahdanau 등이 2014년에 제안한 **어텐션 메커니즘(attention mechanism)**이 부상하기 시작했다.16 초기 어텐션 메커니즘은 기계 번역 모델의 디코더가 출력 단어를 예측할 때마다, 인코더의 모든 입력 단어 시퀀스를 다시 참조하여 현재 예측과 가장 관련성이 높은 단어에 더 높은 가중치, 즉 ’주의(attention)’를 기울이도록 설계되었다. 이는 RNN이 마지막 은닉 상태에 모든 정보를 압축해야 했던 정보 병목 현상을 완화하고, 장거리 의존성을 포착하는 능력을 향상시키는 중요한 진전이었다. 하지만 이 단계의 어텐션은 여전히 RNN 구조 위에서 보조적인 역할을 수행하는 데 그쳤다.
2.2 “Attention Is All You Need” 심층 분석
2017년 6월 12일, Ashish Vaswani를 비롯한 8명의 Google 연구원들은 arXiv에 한 편의 논문을 공개하며 NLP 연구의 흐름을 완전히 바꾸어 놓았다.1 “Attention Is All You Need“라는 도발적인 제목의 이 논문은, 기존의 순환(recurrence) 및 합성곱(convolution) 구조를 완전히 배제하고 오직 어텐션 메커니즘에만 의존하는 새로운 아키텍처, ’트랜스포머’를 제안했다.1
트랜스포머의 전체 구조는 기계 번역에서 널리 사용되던 인코더-디코더 아키텍처를 따른다. 인코더와 디코더는 각각 N=6개의 동일한 레이어를 쌓아 올린 스택(stack) 형태로 구성된다.1 각 인코더 레이어는 ’멀티-헤드 셀프-어텐션(Multi-Head Self-Attention)’과 ’위치별 완전 연결 피드포워드 네트워크(Position-wise Fully Connected Feed-Forward Network)’라는 두 개의 하위 레이어(sub-layer)로 이루어진다. 디코더 레이어는 여기에 인코더의 출력에 어텐션을 수행하는 세 번째 하위 레이어를 추가한다. 모델의 핵심적인 안정화 장치로, 각 하위 레이어의 입력과 출력을 더하는 **잔차 연결(Residual Connection)**과 그 결과를 정규화하는 **레이어 정규화(Layer Normalization)**가 적용된다. 각 하위 레이어의 최종 출력은LayerNorm(x + Sublayer(x))의 형태를 띠며, 이는 깊은 네트워크에서도 정보의 흐름을 원활하게 하고 학습을 안정시키는 데 결정적인 역할을 한다.1
트랜스포머의 심장부는 단연 멀티-헤드 셀프-어텐션 메커니즘이다. ’셀프-어텐션’은 입력 시퀀스 내의 단어들이 서로에게 어텐션을 적용하여, 각 단어가 문장 내 다른 모든 단어와의 관계 속에서 어떤 의미를 갖는지를 파악하는 과정이다. 이 과정은 쿼리(Query, Q), 키(Key, K), 값(Value, V)이라는 세 가지 벡터를 통해 이루어진다. 논문에서는 어텐션 스코어를 계산하기 위해 **스케일드 닷-프로덕트 어텐션(Scaled Dot-Product Attention)**을 사용한다. 이는 쿼리 벡터와 모든 키 벡터의 내적(dot product)을 계산하여 유사도를 측정하고, 이 값을 키 벡터의 차원 수(d_k)의 제곱근(\sqrt{d_k})으로 나누어 스케일링한 후, 소프트맥스(softmax) 함수를 적용하여 가중치를 얻는 방식이다. 스케일링은 d_k가 클 때 내적 값이 너무 커져 소프트맥스 함수의 기울기가 0에 가까워지는 것을 방지하기 위한 중요한 장치다.1
\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{Q K^T}{\sqrt{d_k}}\right) V
트랜스포머는 여기서 한 걸음 더 나아가, 단일 어텐션을 수행하는 대신 멀티-헤드 어텐션을 도입했다. 이는 Q, K, V를 h=8개의 서로 다른 선형 변환을 통해 ’헤드(head)’로 분할하고, 각 헤드에서 독립적으로 어텐션을 병렬 수행하는 방식이다. 각 헤드는 서로 다른 표현 부분 공간(representation subspaces)에서 정보의 관계를 학습할 수 있다. 예를 들어, 어떤 헤드는 “it“이라는 대명사가 어떤 명사를 지칭하는지에 집중하고, 다른 헤드는 문장의 구문 구조적 관계를 파악하는 식이다. 이렇게 병렬적으로 계산된 각 헤드의 출력은 모두 결합(concatenate)된 후 다시 한번 선형 변환을 거쳐 최종 출력을 형성한다. 이는 모델이 다양한 측면의 정보를 동시에 포착할 수 있게 하는 강력한 메커니즘이다.1
\text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, \dots, \text{head}_h) W^O
\text{where } \text{head}_i = \text{Attention}(Q W^Q_i, K W^K_i, V W^V_i)
한편, 모델에서 순환 구조를 완전히 제거함에 따라 단어의 순서 정보가 사라지는 문제가 발생했다. RNN은 구조 자체가 순서를 처리하지만, 트랜스포머의 셀프-어텐션은 집합 연산과 같아서 순서에 무관하게 동일한 결과를 내기 때문이다. 이 문제를 해결하기 위해 논문은 **위치 인코딩(Positional Encoding)**이라는 개념을 도입했다. 이는 각 단어의 입력 임베딩에 해당 단어의 절대적 또는 상대적 위치 정보를 담은 고유한 벡터를 더해주는 방식이다. 논문에서는 서로 다른 주파수를 갖는 사인(sine)과 코사인(cosine) 함수를 사용하여 위치 인코딩 벡터를 생성했다. 이 방식은 모델이 학습 과정에서 단어 간의 상대적인 위치 관계를 추론하는 데 도움을 준다.1
PE_{(pos, 2i)} = \sin(pos/10000^{2i/d_{\text{model}}})
PE_{(pos, 2i+1)} = \cos(pos/10000^{2i/d_{\text{model}}})
2.3 트랜스포머의 혁신성과 미래 영향
트랜스포머의 등장은 단순한 성능 개선을 넘어 NLP 연구의 패러다임을 근본적으로 바꾸는 구조적 혁신이었다. 가장 큰 혁신은 완벽한 병렬화의 실현이었다. 셀프-어텐션 계산은 시퀀스 내 모든 단어에 대해 독립적으로 이루어지므로, RNN의 순차적 병목 없이 GPU의 병렬 처리 능력을 극대화할 수 있었다. 이는 이전과 비교할 수 없을 정도로 큰 데이터셋과 모델에 대한 학습을 가능하게 만들었다.15 또한, 셀프-어텐션은 시퀀스 내 임의의 두 단어 간의 경로 길이를 1로 고정함으로써, RNN의 고질적인
장거리 의존성 문제를 근본적으로 해결했다. 문장의 시작과 끝에 있는 단어가 직접적인 상호작용을 통해 관계를 학습할 수 있게 된 것이다.
트랜스포머의 영향력은 NLP 분야에만 머무르지 않았다. 이 논문이 제시한 아키텍처는 이후 등장한 BERT, GPT, Llama 등 모든 거대 언어 모델의 근간이 되었다.18 나아가, 이미지를 여러 개의 패치(patch)로 나누어 시퀀스처럼 처리하는 ViT(Vision Transformer)와 같은 모델이 등장하면서 컴퓨터 비전 분야로까지 그 영향력을 확장했다.15 트랜스포머는 특정 도메인에 국한된 기술이 아니라, 데이터 요소 간의 관계를 모델링하는 범용적인 프레임워크임이 입증된 것이다.
| 특징 (Feature) | RNN / LSTM | 트랜스포머 (Transformer) |
|---|---|---|
| 핵심 메커니즘 | 순환(Recurrence), 게이트(Gating) | 셀프-어텐션(Self-Attention) |
| 데이터 처리 방식 | 순차적 (Sequential) | 병렬적 (Parallel) |
| 장거리 의존성 | 기울기 소실로 인해 정보 손실 가능성 높음 | 직접 연결로 효과적 포착 (경로 길이 O(1)) |
| 계산 복잡도 (레이어 당) | O(n \cdot d^2) | O(n^2 \cdot d) |
| 순서 정보 처리 | 구조에 내재 (Inherent in structure) | 위치 인코딩 (Positional Encoding) 필요 |
이러한 기술적 비교를 넘어, 트랜스포머의 등장은 AI 연구의 초점을 ’시간적 순서’라는 제약에서 벗어나 데이터 요소 간의 ’관계적 구조’를 직접 모델링하는 방향으로 이동시켰다는 점에서 더 깊은 의미를 갖는다. RNN은 데이터를 시간의 흐름에 따른 선형적인 스트림으로 간주한다. 이는 언어와 같은 데이터에 자연스러운 접근 방식이지만, 모든 관계를 ’이전’과 ’다음’이라는 한정된 관계로 제한한다. 반면, 트랜스포머의 셀프-어텐션은 시퀀스 내의 모든 요소 쌍 간의 관계를 직접 계산한다. 이는 데이터를 선형적인 체인이 아닌, 모든 노드가 서로 연결된 완전 그래프(fully connected graph)로 바라보는 관점의 전환이다. 이러한 관점의 전환은 NLP를 넘어, 이미지의 픽셀 패치들(ViT), 분자 구조 내 원자들, 소셜 네트워크의 사용자들처럼 요소들 간의 복잡한 상호작용이 중요한 모든 분야에 트랜스포머의 ‘관계 모델링’ 철학이 적용될 수 있는 길을 열었다. 따라서 “Attention Is All You Need“는 단순히 더 나은 NLP 모델을 제시한 논문이 아니라, 데이터를 바라보는 근본적인 관점을 바꾸고 AI 모델링의 기본 단위를 ’순차적 상태 전이’에서 ’전역적 관계 계산’으로 대체한 철학적 혁신이었다.
3. 컴퓨터 비전의 심화: CVPR 2017 주요 연구
2017년 7월에 개최된 CVPR은 컴퓨터 비전 분야가 직면한 근본적인 도전 과제들에 대한 심도 있는 해결책을 제시한 연구들로 가득했다. 특히, 최우수 논문상을 공동 수상한 두 편의 논문, ’Densely Connected Convolutional Networks’와 ’Learning from Simulated and Unsupervised Images through Adversarial Training’은 각각 모델 아키텍처의 효율성과 학습 데이터의 한계 극복이라는 중요한 주제를 다루며 당시 연구 동향을 선도했다.
3.1 Densely Connected Convolutional Networks (DenseNet)
CVPR 2017에서 최우수 논문상(Best Paper Award)을 수상한 DenseNet은 당시 딥러닝 아키텍처 설계의 주류였던 ’네트워크를 더 깊게 만드는 것’에 대한 새로운 해법을 제시했다.3 이 논문의 핵심 아이디어는 **밀집 연결(Dense Connectivity)**이라는 단순하지만 강력한 개념에 기반한다.
기존의 심층 합성곱 신경망(Deep CNN), 예를 들어 ResNet은 정보가 한 레이어에서 다음 레이어로 순차적으로 전달되는 구조를 가졌다. ResNet은 스킵 연결(skip connection)을 통해 이전 레이어의 정보를 다음 레이어에 더해줌으로써 깊은 네트워크의 학습을 용이하게 했지만, 정보 흐름은 여전히 계층적이었다. 반면, DenseNet은 각 레이어가 자신보다 앞선 모든 선행 레이어(all preceding layers)의 특징 맵(feature maps)을 입력으로 직접 받는다.3 즉, l번째 레이어는 0부터 l-1번째 레이어까지의 모든 특징 맵을 입력으로 사용한다. 이러한 구조로 인해 L개의 레이어를 가진 네트워크에서 전통적인 CNN이 L개의 연결을 갖는 반면, DenseNet은 L(L+1)/2개의 직접적인 연결을 형성한다.10
이러한 밀집 연결 구조는 여러 가지 중요한 장점을 가져왔다. 첫째, **강화된 특징 전파(Strengthened Feature Propagation)**가 가능해졌다. 모든 레이어가 이전 레이어들의 정보에 직접 접근할 수 있으므로, 초기 레이어에서 추출된 저수준 특징(low-level features)부터 후기 레이어의 고수준 특징(high-level features)까지 정보가 손실 없이 네트워크 전체에 효과적으로 전파된다.3 둘째, **특징 재사용(Feature Reuse)**을 극대화했다. 각 레이어는 선행 레이어들로부터 전달받은 풍부한 특징 맵을 재사용하고, 자신은 ’성장률(growth rate)’이라고 불리는 하이퍼파라미터 k에 의해 결정되는 아주 적은 수의 새로운 특징 맵만을 추가한다. 이는 네트워크가 매우 적은 파라미터로도 높은 표현력을 가질 수 있게 하여, 파라미터 효율성을 획기적으로 개선했다.3 셋째, 이러한 직접적인 연결은 네트워크의 각 레이어가 손실 함수로부터 직접적인 그래디언트 신호를 받을 수 있게 하여, 깊은 네트워크에서 흔히 발생하는 소실 기울기 문제(vanishing-gradient problem)를 완화하는 효과를 낳았다.3 결과적으로 DenseNet은 CIFAR, ImageNet과 같은 주요 벤치마크에서 ResNet을 포함한 당시의 SOTA 모델들과 동등하거나 더 나은 성능을 보이면서도 훨씬 적은 수의 파라미터를 필요로 함을 입증했다.
3.2 SimGAN: 시뮬레이션과 비지도 학습의 결합
DenseNet과 함께 CVPR 2017 최우수 논문상을 수상한 ‘Learning from Simulated and Unsupervised Images through Adversarial Training’(이하 SimGAN)은 모델 아키텍처가 아닌 학습 데이터의 문제를 다루었다.7 딥러닝 모델의 성능은 대규모의 고품질 레이블링 데이터에 크게 의존하지만, 이러한 데이터를 수집하고 가공하는 데는 막대한 비용과 시간이 소요된다. 이에 대한 대안으로 컴퓨터 그래픽스를 이용해 합성(synthetic) 데이터를 생성하는 방법이 주목받았으나, 합성 이미지와 실제 이미지 사이의 미묘하지만 분명한 분포 차이, 즉 **도메인 갭(domain gap)**으로 인해 합성 데이터로만 학습한 모델은 실제 환경에서 성능이 저하되는 한계가 있었다.13
SimGAN은 이러한 도메인 갭 문제를 해결하기 위해 S+U(Simulated+Unsupervised) 학습이라는 새로운 패러다임을 제안했다. 핵심 아이디어는 레이블이 없는(unsupervised) 실제 데이터를 활용하여, 시뮬레이터가 생성한 합성 이미지의 ’현실성’을 높이는 변환 모델(Refiner)을 학습시키는 것이다. 이 과정에서 가장 중요한 제약 조건은 원본 합성 이미지가 가지고 있던 레이블 정보(e.g., 시선 방향, 손 관절 위치 등)가 변환 과정에서 보존되어야 한다는 점이다.13
SimGAN은 이 목표를 달성하기 위해 생성적 적대 신경망(Generative Adversarial Network, GAN)의 프레임워크를 차용했다. 시스템은 두 개의 네트워크, 즉 **Refiner(R)**와 **Discriminator(D)**로 구성된다.13 Refiner는 합성 이미지를 입력받아 더 현실적으로 보이도록 변환하는 역할을 하며, Discriminator는 실제 이미지와 Refiner가 생성한 이미지를 구별하도록 학습한다. 두 네트워크는 서로 경쟁하며 학습하는 과정을 통해 Refiner는 점차 실제 이미지와 구별하기 어려운 이미지를 생성하게 된다.
SimGAN은 표준 GAN 아키텍처에 몇 가지 핵심적인 수정을 가하여 S+U 학습 목표에 최적화했다. 첫째, 레이블 정보 보존을 위해 **자기-정규화 손실(self-regularization loss)**을 도입했다. 이는 원본 합성 이미지와 변환된 이미지 간의 픽셀 단위 차이를 최소화하는 손실 항으로, Refiner가 이미지의 현실성을 높이면서도 원본의 핵심적인 구조와 내용을 변경하지 않도록 강제하는 역할을 한다.13 둘째, 이미지 전체가 아닌 지역적인 패치(local patch)에 대해 Discriminator를 적용하는 지역 적대적 손실(local adversarial loss)을 사용하여, 이미지의 전반적인 구조는 유지하면서 국소적인 질감의 현실감을 높였다.13 셋째, 학습 안정성을 높이기 위해 Discriminator를 학습시킬 때 현재 Refiner가 생성한 이미지뿐만 아니라 과거에 생성했던 이미지들을 저장해 둔 버퍼(history of refined images)를 활용했다.13 이러한 장치들을 통해 SimGAN은 시선 추정(gaze estimation)과 같은 태스크에서 레이블링된 실제 데이터 없이도 SOTA 성능을 달성하며 S+U 학습의 유효성을 성공적으로 입증했다.
CVPR 2017의 두 최우수 논문은 서로 다른 문제를 다루고 있지만, AI 연구가 직면한 두 가지 근본적인 제약, 즉 ’계산 자원(Computation)’과 ’데이터(Data)’의 한계를 극복하려는 시도라는 공통된 지향점을 가진다. DenseNet은 ’특징 재사용’이라는 우아한 아이디어를 통해 더 적은 파라미터와 계산량으로 높은 성능을 달성하고자 했다.3 이는 제한된 계산 자원 내에서 모델의 내재적 효율성을 극대화하려는 노력, 즉 ‘Computation’ 문제에 대한 해법이다. 반면 SimGAN은 값비싼 인간의 레이블링 작업 없이, 무한히 생성 가능한 합성 데이터를 실용적으로 활용하는 방법을 제시했다.13 이는 고품질의 대규모 데이터셋을 확보하기 어려운 ‘Data’ 문제에 대한 해법, 즉 학습 과정의 외재적 효율성을 추구한 것이다. 결국 두 연구는 AI 모델을 현실 세계에 더 저렴하고, 더 확장 가능하게 적용하기 위한 공통의 목표를 향해 나아갔다. 2017년 컴퓨터 비전 분야는 단순히 새로운 SOTA 기록을 경신하는 것을 넘어, AI 기술의 실용화와 보급을 가로막는 근본적인 장벽인 ‘비용’ 문제를 해결하는 방향으로 연구의 초점이 이동하고 있었음을 이 두 논문이 명확히 보여준다.
4. 기계학습의 지평 확장: ICML & ICAPS 2017
2017년 6월과 8월에 걸쳐 개최된 ICML과 ICAPS는 기계학습의 이론적 깊이와 응용 범위를 동시에 확장하는 중요한 연구들을 조명했다. ICML에서는 모델의 예측 과정을 이해하려는 ‘해석 가능성’ 연구가 정점에 올랐고, ICAPS에서는 AI 계획 기술이 인간 및 복잡한 사회 시스템과 상호작용하는 현실적인 문제로 나아갔다.
4.1 블랙박스 모델 해석의 새로운 접근: 영향 함수 (Influence Functions)
ICML 2017에서 최우수 논문상을 수상한 Pang Wei Koh와 Percy Liang의 논문 “Understanding Black-box Predictions via Influence Functions“는 딥러닝 모델의 불투명성 문제에 대한 새로운 해법을 제시하며 학계의 큰 주목을 받았다.4 딥러닝 모델이 다양한 분야에서 인간을 뛰어넘는 성능을 보여주었지만, 그 내부 작동 원리가 복잡하여 ‘왜’ 그런 결정을 내렸는지 설명하기 어려운 ’블랙박스’라는 비판이 꾸준히 제기되어 왔다. 이 논문은 이러한 해석 가능성(interpretability)과 신뢰성(trustworthiness) 문제를 해결하기 위한 중요한 이론적 도구를 제공했다.
논문의 핵심 아이디어는 특정 테스트 데이터에 대한 모델의 예측이 어떤 훈련 데이터 포인트에 의해 가장 큰 영향을 받았는지를 역으로 추적하는 것이다. 이는 “이 모델은 왜 이런 예측을 했는가?“라는 질문에 대해 “이러한 훈련 데이터 때문에“라고 구체적인 근거를 제시할 수 있게 해준다.12 이를 위해 저자들은 로버스트 통계학의 고전적 기법인 **영향 함수(influence functions)**를 현대적인 딥러닝 모델에 적용했다. 영향 함수는 특정 훈련 데이터 포인트의 가중치를 아주 미세하게 변경했을 때, 학습된 모델의 파라미터와 최종적으로 특정 테스트 예측에 대한 손실(loss)이 어떻게 변하는지를 근사적으로 계산한다. 이 방법의 가장 큰 장점은 모델을 매번 재학습할 필요 없이, 단일 학습된 모델의 그래디언트와 헤시안(Hessian) 행렬 정보를 이용해 효율적으로 영향력을 추정할 수 있다는 점이다.12
테스트 데이터 z_{\text{test}}에 대한 손실에 훈련 데이터 z가 미치는 영향 함수 \mathcal{I}_{\text{up, loss}}는 다음과 같이 표현된다.
\mathcal{I}_{\text{up, loss}}(z, z_{\text{test}}) = -\nabla_{\theta}L(z_{\text{test}}, \hat{\theta})^T H_{\hat{\theta}}^{-1} \nabla_{\theta}L(z, \hat{\theta})
여기서 \hat{\theta}는 학습된 모델 파라미터, L은 손실 함수, H_{\hat{\theta}}는 손실 함수의 헤시안 행렬이다. 이 수식은 테스트 데이터의 손실 그래디언트와 훈련 데이터의 손실 그래디언트, 그리고 두 그래디언트 공간을 연결하는 헤시안의 역행렬의 상호작용으로 영향력이 결정됨을 보여준다.
이러한 영향 함수는 다양한 실용적인 활용 방안을 제시했다. 첫째, 모델 디버깅에 사용될 수 있다. 모델이 특정 테스트 데이터에 대해 잘못된 예측을 했을 때, 어떤 훈련 데이터가 그 오류의 원인이 되었는지 식별하여 모델의 약점을 파악할 수 있다.12 둘째,
데이터셋 오류 탐지에 효과적이다. 잘못 레이블링된 훈련 데이터는 종종 모델 예측에 큰 부정적 영향을 미치는데, 영향 함수를 통해 이러한 유해한(harmful) 데이터 포인트를 체계적으로 찾아내 데이터 품질을 향상시킬 수 있다.12 셋째, **적대적 훈련 공격(adversarial training attacks)**을 생성하는 데 사용될 수 있다. 특정 테스트 예측 결과를 바꾸기 위해 어떤 훈련 데이터를 어떻게 미세하게 수정해야 하는지를 계산하여, 인간의 눈으로는 감지하기 어려운 ‘데이터 포이즈닝(data poisoning)’ 공격을 정교하게 설계할 수 있다.12
4.2 자동화 계획 및 스케줄링의 도전 과제 (ICAPS 2017)
2017년 6월 18일부터 23일까지 카네기 멜런 대학에서 개최된 ICAPS 2017은 AI의 또 다른 핵심 분야인 자동화 계획 및 스케줄링(automated planning and scheduling)의 연구 동향을 조망할 수 있는 중요한 자리였다.2 특히, 두 기조연설은 이 분야의 연구가 순수한 알고리즘 최적화를 넘어, 복잡하고 동적인 실제 세계의 문제와 어떻게 상호작용해야 하는지에 대한 깊은 통찰을 제공했다.
카네기 멜런 대학의 Manuela Veloso 교수는 “Planning for Human-AI Interaction in Autonomous Mobile Robots“라는 주제의 강연을 통해, 자율 이동 로봇이 단순히 작업을 수행하는 것을 넘어 인간 사용자와 효과적으로 상호작용하기 위한 계획 수립의 중요성을 역설했다. 로봇이 자신의 경로 계획, 작업 순서 결정 등 내부적인 계획 과정과 그 이유를 인간이 이해할 수 있는 언어로 설명(verbalization)하는 기술은, 인간과 로봇 간의 신뢰를 구축하고 원활한 협업을 가능하게 하는 데 필수적이라는 점을 강조했다.2 이는 AI 플래닝이 기술적 최적성뿐만 아니라 사회적 수용성을 함께 고려해야 함을 시사한다.
호주 국립대학의 Sylvie Thiébaux 교수는 “Energy Systems: Challenges and Opportunities for ICAPS“라는 강연에서 AI 플래닝 기술의 사회적 영향력을 더욱 확장했다. 그는 노후화된 전력 인프라, 탄소 배출 감소 목표, 간헐적인 신재생 에너지원의 통합 등 현대 에너지 시스템이 직면한 복잡하고 거대한 문제들을 해결하는 데 자동화 계획 및 스케줄링 기술이 핵심적인 역할을 할 수 있음을 조명했다. 이는 AI 플래닝이 개별 에이전트의 행동 최적화를 넘어, 사회 기반 시스템 전체의 효율성과 지속 가능성을 높이는 방향으로 나아가야 함을 보여주었다.2
이 시기 기계학습 분야의 동향은 AI의 ’능력(Capability)’과 ’책임(Responsibility)’에 대한 논의가 학문적으로 동시에 무르익고 있었음을 보여준다. 한편에서는 트랜스포머나 DenseNet과 같은 연구들이 AI 모델의 ’능력’을 전례 없는 수준으로 끌어올리고 있었다. 모델은 더 복잡한 패턴을 더 효율적으로 학습할 수 있게 되었다. 다른 한편에서는, 모델의 능력이 강력해질수록 그 결정 과정이 불투명한 ’블랙박스’가 되는 문제가 심화되었고, ICML의 영향 함수 연구는 이러한 블랙박스를 열어보고자 하는, 즉 AI의 ’책임’을 묻고자 하는 학문적 노력의 대표적인 예시가 되었다. ICAPS의 기조연설에서 다룬 인간-AI 상호작용 역시 ’책임’의 또 다른 측면이다. AI가 자신의 행동을 설명하고 인간과 협력할 수 있어야만 사회적으로 수용될 수 있다는 인식이 확산되고 있었다. 강력한 AI 모델의 등장은 필연적으로 그 모델의 결정에 대한 설명과 통제를 요구한다. 2017년 6월은 이러한 ’능력’의 발전과 ’책임’에 대한 요구가 학문적 최전선에서 동시에 최우수 연구로 인정받을 만큼 중요한 의제로 자리 잡았음을 보여주는 시점이었다. 이는 AI가 단순한 기술적 도구를 넘어 사회적 행위자(social actor)로서의 역할을 고민하기 시작했음을 의미한다.
5. 언어학과 로보틱스의 교차점: ACL & RSS 2017
2017년 여름, 자연어 처리와 로보틱스 분야의 최고 학회인 ACL과 RSS에서는 AI 기술이 각자의 핵심 영역을 넘어 다른 학문 분야와 깊이 융합하며 새로운 지적 지평을 여는 연구들이 주목받았다. ACL에서는 딥러닝이 순수 언어학의 오랜 난제를 탐구하는 도구로 사용되었고, RSS에서는 로봇의 물리적 설계와 행동 계획을 통합하는 근본적인 방법론이 제시되었다.
5.1 심층 생성 모델을 통한 언어 유형론 분석
ACL 2017에서 최우수 장편 논문상(Best Long Paper)을 수상한 Ryan Cotterell과 Jason Eisner의 “Probabilistic Typology: Deep Generative Models of Vowel Inventories“는 현대 딥러닝 기술과 전통적인 언어학 이론의 성공적인 융합을 보여준 대표적인 사례다.6 이 연구는 “자연스러운 모음 체계(vowel inventory)를 구성하는 원리는 무엇인가?“라는 언어 유형론(linguistic typology)의 근본적인 질문에 답하고자 했다. 예를 들어, 왜 전 세계의 수많은 언어들이 공통적으로 /i/, /a/, /u/와 같은 모음을 가지고 있으며, 특정 모음들이 함께 나타나는 경향이 있는지를 설명하려는 시도였다.29
이 질문에 답하기 위해 저자들은 특정 모음 체계가 나타날 확률을 직접 모델링하는 최초의 확률적 접근법을 제시했다. 기존의 연구들이 주로 시뮬레이션에 의존했던 것과 달리, 이들은 관찰된 전 세계 언어들의 모음 체계 데이터로부터 그 기저에 있는 확률 분포를 학습하는 생성 모델(generative model)을 구축했다.29 이를 위해 **심층 확률적 점 과정(Deep Stochastic Point Processes)**이라는 새로운 방법론을 도입했다. ’점 과정’은 특정 공간(여기서는 가능한 모든 모음의 집합)에서 점들의 집합(여기서는 특정 언어의 모음 체계)이 생성될 확률을 다루는 수학적 프레임워크다. 여기에 ’심층(Deep)’이라는 수식어가 붙은 이유는, 모음 간의 복잡한 상호작용을 모델링하기 위해 심층 신경망을 사용하여 모음의 음향학적 공간(formant space)을 더 의미 있는 잠재 공간(metric space)으로 비선형적으로 변환했기 때문이다. 이 모델은 모음들이 서로 충분히 떨어져 있으려는 ‘분산(dispersion)’ 원리와, 발음하고 인지하기 쉬운 특정 지점에 위치하려는 ‘초점화(focalization)’ 원리를 동시에 학습할 수 있었다.29
이 연구의 가장 큰 기여는 최신 AI 기술이 단순히 공학적인 문제를 해결하는 것을 넘어, 인문학 및 사회과학과 같은 다른 학문 분야의 오랜 이론적 난제를 탐구하고 검증하는 강력한 도구가 될 수 있음을 입증했다는 점이다. 이는 AI의 역할이 응용 기술을 넘어 과학적 발견을 위한 새로운 방법론으로 확장될 수 있는 가능성을 열어주었다.
5.2 로봇 설계의 점근적 최적화
로보틱스 분야의 최고 학회인 RSS 2017에서는 Cenk Baykal과 Ron Alterovitz의 “Asymptotically Optimal Design of Piecewise Cylindrical Robots using Motion Planning“이 최우수 논문상을 수상했다.5 이 연구는 로봇 공학의 근본적인 문제 중 하나인 ‘최적 설계’ 문제를 다루었다. 즉, 주어진 환경과 작업(예: 여러 목표 지점에 도달하기)에 대해, 장애물을 피하면서 해당 작업을 가장 효율적으로 수행할 수 있는 단일 로봇의 최적 운동학적 설계(kinematic design), 예를 들어 로봇 팔의 각 링크 길이를 어떻게 결정할 것인가 하는 문제다.33
이 문제의 어려움은 로봇의 물리적 설계와 그 설계하에서 가능한 행동 계획이 서로 밀접하게 얽혀 있다는 점에서 비롯된다. 특정 설계가 좋은지 평가하려면, 그 설계로 로봇이 실제로 작업을 성공적으로 수행할 수 있는지 운동 계획(motion planning)을 해봐야 한다. 저자들은 이 문제를 해결하기 위해 로봇의 물리적 매개변수 공간인 **‘설계 공간(Design Space)’**에서의 최적화와, 로봇의 관절 각도 등 자세 공간인 **‘구성 공간(Configuration Space)’**에서의 운동 계획을 통합하는 독창적인 프레임워크를 제안했다.33
그들의 방법론은 두 가지 핵심 알고리즘을 결합한다. 설계 공간을 탐색하기 위해서는 확률적 최적화(Stochastic Optimization) 기법을 사용하여 전역적인 탐색을 수행한다. 그리고 각 후보 설계안의 성능(목표 지점 도달 가능성)을 평가하기 위해서는, 복잡한 환경에서 효율적인 경로를 찾는 데 널리 사용되는 **샘플링 기반 운동 계획(sampling-based motion planning) 알고리즘인 RRT(Rapidly-exploring Random Tree)**를 사용한다.33 이 두 알고리즘을 통합함으로써, 이 방법은 탐색을 반복할수록 더 좋은 설계를 찾아 나간다. 이 연구의 가장 중요한 이론적 기여는 제안된 알고리즘이 반복 횟수가 무한히 증가함에 따라 지역 최적해(local optima)에 빠지지 않고 **전역 최적해(global optimum)로 거의 확실하게 수렴함(asymptotically optimal)**을 수학적으로 증명했다는 점이다.33 이는 로봇의 하드웨어 설계와 소프트웨어 계획을 동시에 최적화하는 통합 프레임워크를 제시하고 그 성능을 이론적으로 보장함으로써, 로봇 설계 자동화 분야에서 중요한 진전을 이룬 것으로 평가받는다.
2017년 6월의 주요 연구들은 AI가 핵심 컴퓨터 과학 분야를 넘어, 자연 법칙을 탐구하는 과학(Science)과 공학적 설계를 다루는 인공물 창조(Creation of Artifacts) 양쪽 모두에서 근본적인 도구로 자리매김하고 있음을 보여준다. ACL의 모음 체계 연구는 인간 언어에 내재된 보편적 법칙, 즉 ’자연 현상’을 이해하기 위해 AI 모델을 사용했다.29 이는 AI를 통해 자연을 관찰하고 가설을 검증하는 과학적 방법론의 새로운 형태다. 반면, RSS의 로봇 설계 연구는 특정 목적을 가장 잘 달성할 수 있는 로봇이라는 ’인공물’을 설계하기 위해 AI를 사용했다.33 이는 AI가 최적의 공학적 해결책을 탐색하고 창조하는 설계 도구로서의 역할을 수행함을 의미한다. 이 두 연구는 AI의 역할을 양극단에서 보여준다. 하나는 ’발견(Discovery)’을 위한 도구이고, 다른 하나는 ’발명(Invention)’을 위한 도구다. 2017년 6월, AI는 단순히 데이터를 분류하고 예측하는 것을 넘어, 인간의 지적 활동의 가장 핵심적인 두 축인 과학적 탐구와 공학적 창조 모두에서 그 가능성을 최상위 학회 수준에서 입증하기 시작했다.
6. 결론: 2017년 6월의 유산과 미래 전망
본 보고서에서 심층적으로 분석한 바와 같이, 2017년 6월은 인공지능 역사에서 단순한 과거의 한 시점이 아니라, 현재 진행형인 AI 혁명의 방향과 속도를 결정한 중대한 전환점이었다. 이 시기에 발표된 연구들은 각기 다른 분야에서 출발했지만, 공통적으로 AI 기술의 근본적인 패러다임을 바꾸고 미래의 가능성을 여는 역할을 수행했다.
2017년 6월의 유산은 다층적이다. 첫째, 트랜스포머 아키텍처는 순차적 처리의 굴레에서 벗어나 병렬적 관계 모델링이라는 새로운 길을 열며 자연어 처리를 재정의했고, 이는 이후 AI 전반의 기술적 토대가 되었다. 둘째, CVPR에서 조명된 DenseNet과 SimGAN은 각각 모델과 데이터의 효율성이라는 지극히 실용적인 문제를 해결하는 새로운 방향을 제시했다. 이는 AI 기술이 연구실을 넘어 현실 세계에 적용되기 위해 반드시 넘어야 할 장벽에 대한 해법을 모색한 결과물이었다. 셋째, ICML에서 주목받은 영향 함수 연구는 AI의 성능만큼이나 그 결정 과정의 투명성과 신뢰성이 중요하다는 인식을 학문적 중심으로 이끌었다. 이는 AI의 사회적 책임에 대한 논의를 촉발하는 계기가 되었다. 마지막으로, ACL과 RSS의 최우수 연구들은 AI가 컴퓨터 과학의 경계를 넘어 순수 과학의 발견 도구이자 공학적 창조의 설계 도구로 진화하고 있음을 명확히 보여주었다.
이 시기에 뿌려진 씨앗들은 이후 AI 생태계 전반에 걸쳐 풍성한 결실을 맺었다. 트랜스포머는 거대 언어 모델(LLM)의 폭발적인 성장으로 이어졌고, DenseNet이 추구했던 효율성은 AI 모델의 경량화 및 온디바이스(on-device) AI 경쟁으로 계승되었다. 영향 함수 연구는 설명가능 AI(Explainable AI, XAI) 분야의 확장에 기여했으며, AI를 과학과 공학에 적용하려는 시도는 AI 기반 신약 개발, 재료 과학, 기후 모델링 등 ’AI for Science’라는 거대한 흐름을 형성했다.
결론적으로, 2017년 6월의 연구들은 단지 과거의 뛰어난 학문적 성과 목록이 아니다. 그것은 현재 우리가 경험하고 있는 AI 혁명의 청사진을 제시한 예고편이었으며, 오늘날 AI가 직면한 많은 도전 과제에 대한 근본적인 통찰을 담고 있다. 따라서 이 시기의 핵심적인 질문과 창의적인 해결책들을 다시 깊이 탐구하는 것은, 불확실한 미래의 AI 연구 방향을 설정하고 기술의 사회적 의미를 성찰하는 데 있어 여전히 중요한 지적 나침반이 될 것이다.
7. 참고 자료
- Attention Is All You Need, https://arxiv.org/abs/1706.03762
- ICAPS 2017, https://icaps17.icaps-conference.org/
- Zhuang Liu from YaoClass 30 Honored with Best Paper Award at CVPR 2017-Institute for Interdisciplinary Information Sciences (IIIS), https://iiis.tsinghua.edu.cn/en/info/1018/1148.htm
- ICML 2017 Best Papers Announced! Explainability of Machine Learning Becomes a Hot Topic - EEWorld, https://en.eeworld.com.cn/mp/leiphone/a30890.jspx
- Best Paper Award - RSS Foundation, https://roboticsfoundation.org/awards/best-paper-award/
- CLSP members win Best Long Paper and Outstanding Short Paper at ACL 2017, https://www.clsp.jhu.edu/2017/09/05/clsp-members-win-best-long-paper-outstanding-short-paper-acl-2017/
- CVPR Best Paper Award - IEEE Computer Society Technical Committee on Pattern Analysis and Machine Intelligence, https://tc.computer.org/tcpami/2022/08/22/cvpr-best-paper-award/
- CVPR Paper Awards - IEEE Computer Society Technical Committee on Pattern Analysis and Machine Intelligence, https://tc.computer.org/tcpami/awards/cvpr-paper-awards/
- Outstanding and best papers and the decision process - ACL 2017 - WordPress.com, https://acl2017.wordpress.com/2017/08/03/outstanding-and-best-papers-and-the-decision-process/
- (PDF) Densely Connected Convolutional Networks (2017) | Gao Huang | 44392 Citations, https://scispace.com/papers/densely-connected-convolutional-networks-i745msea9d
- Densely Connected Convolutional Networks, https://arxiv.org/abs/1608.06993
- Understanding Black-box Predictions via Influence Functions - arXiv, https://arxiv.org/pdf/1703.04730
- Learning From Simulated and Unsupervised … - CVF Open Access, https://openaccess.thecvf.com/content_cvpr_2017/papers/Shrivastava_Learning_From_Simulated_CVPR_2017_paper.pdf
- Transformer (deep learning architecture) - Wikipedia, https://en.wikipedia.org/wiki/Transformer_(deep_learning_architecture)
- What is a Transformer Model? | IBM, https://www.ibm.com/think/topics/transformer-model
- Attention Is All You Need - Wikipedia, https://en.wikipedia.org/wiki/Attention_Is_All_You_Need
- Attention is All you Need - NIPS, https://papers.neurips.cc/paper/7181-attention-is-all-you-need.pdf
- LLM Transformer Model Visually Explained - Polo Club of Data Science, https://poloclub.github.io/transformer-explainer/
- [PDF] Densely Connected Convolutional Networks - Semantic Scholar, https://www.semanticscholar.org/paper/Densely-Connected-Convolutional-Networks-Huang-Liu/5694e46284460a648fe29117cbc55f6c9be3fa3c
- (PDF) Convolutional Networks with Dense Connectivity - ResearchGate, https://www.researchgate.net/publication/333337231_Convolutional_Networks_with_Dense_Connectivity
- Convolutional Networks with Dense Connectivity - Cornell: Computer Science, https://www.cs.cornell.edu/~kilian/resources/DenseNet_Journal.pdf
- [PDF] Learning from Simulated and Unsupervised Images through Adversarial Training, https://www.semanticscholar.org/paper/Learning-from-Simulated-and-Unsupervised-Images-Shrivastava-Pfister/68cb9fce1e6af2740377494350b650533c9a29e1
- Learning from Simulated and Unsupervised Images through Adversarial Training | Scinito, https://app.scinito.ai/article/W2963709863
- Learning from Simulated and Unsupervised Images through Adversarial Training | Request PDF - ResearchGate, https://www.researchgate.net/publication/311900792_Learning_from_Simulated_and_Unsupervised_Images_through_Adversarial_Training
- Learning from Simulated and Unsupervised Images through Adversarial Training, https://vitalab.github.io/article/2017/09/28/simulated-unsupervised-adversarial-learning.html
- Understanding Black-box Predictions via Influence Functions - Proceedings of Machine Learning Research, https://proceedings.mlr.press/v70/koh17a/koh17a.pdf
- [1703.04730] Understanding Black-box Predictions via Influence Functions - arXiv, https://arxiv.org/abs/1703.04730
- Understanding Black-box Predictions via Influence Functions - GitHub, https://github.com/kohpangwei/influence-release
- Probabilistic Typology: Deep Generative Models of Vowel Inventories - ACL Anthology, https://aclanthology.org/P17-1109/
- Probabilistic Typology: Deep Generative Models of Vowel Inventories - Johns Hopkins Computer Science, https://www.cs.jhu.edu/~jason/papers/cotterell+eisner.acl17.pdf
- Probabilistic Typology: Deep Generative Models of Vowel Inventories, https://aclanthology.org/P17-1109.pdf
- [1705.01684] Probabilistic Typology: Deep Generative Models of Vowel Inventories - arXiv, https://arxiv.org/abs/1705.01684
- Asymptotically Optimal Design of Piecewise Cylindrical … - Robotics, https://www.roboticsproceedings.org/rss13/p20.pdf